LVK2022

Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss

2000–2021, 101 milj. vārdlietojumu (123 milj. tekstvienību)
Izstrādātāji: LU MII

LATE-sarunas

LATE sarunu korpuss

2012–2024, 44 stundas (429 000 tekstvienību)
Izstrādātāji: LU MII, LU LFMI

MuLa2022

Mūsdienu latgaliešu tekstu korpuss 2022

1988–2021, 2 milj. vārdlietojumu (2,8 milj. tekstvienību)
Izstrādātāji: RTA, LU MII

LVTB

Latviešu valodas sintaktiski marķētais korpuss

1991–2023, 19 367 teikumi (328 000 tekstvienību) (v2.15)
Izstrādātāji: LU MII

BalsuTalka

Balsutalka.lv runas korpuss (Common Voice 17.0)

2023–2024, 277 stundas (1,3 milj. tekstvienību)
Izstrādātāji: LU MII, LU LFMI, LATA

Barometrs

Interneta agresivitātes indekss

2011–2022, 26 milj. komentāru (642 milj. tekstvienību)
Izstrādātāji: RSU, LU MII

BolsuTolka

Bolsutolka.lv runas korpuss (Common Voice 19.0)

2023–2024, 29 stundas (160 000 tekstvienību)
Izstrādātāji: RTA, LU MII, LU LFMI, LATA

Cīņa

"Cīņa"

1904–1991, 185 milj. vārdlietojumu (231 milj. tekstvienību)
Izstrādātāji: LNB

Disertācijas

Promocijas darbu korpuss

1993–2020, 16,7 milj. vārdlietojumu (23,4 milj. tekstvienību)
Izstrādātāji: LU MII

Emuāri

Latviešu valodas emuāru korpuss

2001–2015, 6,6 milj. vārdlietojumu (8 milj. tekstvienību)
Izstrādātāji: LU MII

fonLATE

LATE fonētiski marķēts runas korpuss

2012–2024, 4 stundas (48 000 tekstvienību)
Izstrādātāji: LU MII

FullStack-LV

Daudzslāņu valodas resursu kopa

1991–2018, 13 691 teikums
Izstrādātāji: LU MII

Jaunatne

"Padomju Jaunatne"

1944–1989, 138 milj. vārdlietojumu (176 milj. tekstvienību)
Izstrādātāji: LNB

Karogs

"Karogs"

1940–1994, 48,7 milj. vārdu (62,1 milj. tekstvienību)
Izstrādātāji: LNB

LAMBA

Morfoloģiski marķēts longitudināls bērnu runas korpuss

2015–2017, 34 stundas
Izstrādātāji: LU MII

LATE-mediji

LATE plašsaziņas līdzekļu korpuss

2015–2020, 78 stundas (682 000 tekstvienību)
Izstrādātāji: LU MII

LatSenRom

Latviešu senākie romāni

1879–1920, 3,7 milj. vārdlietojumu (4,7 milj. tekstvienību)
Izstrādātāji: LNB, LU LFMI

LaVA

Latviešu valodas apguvēju korpuss

2018–2021, 192 000 vārdlietojumu (241 000 tekstvienību)
Izstrādātāji: LU MII

LAvīzes

"Latviešu Avīzes"

1822–1915, 35,7 milj. vārlietojumu (46 milj. tekstvienību)
Izstrādātāji: LNB

Likumi

Latvijas Republikas tiesību aktu korpuss

1990–2022, 73,9 milj. vārdlietojumu (116,2 milj. tekstvienību)
Izstrādātāji: LU MII

LiLa

Lietuviešu-latviešu-lietuviešu paralēlo tekstu korpuss

1982–2012, 8 milj. vārdlietojumu
Izstrādātāji: LU MII, VDU

LitMāksla

"Literatūra un Māksla"

1945–1995, 52,7 milj. vārdu (65,8 milj. tekstvienību)
Izstrādātāji: LNB

LRK2013

Latviešu valodas runas atpazīšanas korpuss

2005–2013, 100 stundas (1,1 milj. tekstvienību)
Izstrādātāji: LU MII, Tilde, LETA

LVK2018

Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss

1991–2018, 10 milj. vārdlietojumu (12 milj. tekstvienību)
Izstrādātāji: LU MII

LVMED

Radioloģisko izmeklējumu transkripciju korpuss

2010–2022, 35 stundas (157 000 tekstvienību)
Izstrādātāji: LU MII, RAKUS

MuLa2012

Mūsdienu latgaliešu tekstu korpuss 2012

1988–2012, 1 milj. vārdlietojumu (1,3 milj. tekstvienību)
Izstrādātāji: LU MII, RTA

PanDi

Pandēmijas dienasgrāmatas

2020–2022, 565 000 vārdlietojumu (709 000 tekstvienību)
Izstrādātāji: LU LFMI

Pārspriedumi

Skolēnu pārspriedumu korpuss

2018, 185 000 vārdlietojumu (226 000 tekstvienību)
Izstrādātāji: LU MII, LiepU, RTA

Rainis

Raiņa darbu korpuss

1895–1929, 1,6 milj. vārdlietojumu (2,3 milj. tekstvienību)
Izstrādātāji: LU MII

Saeima

LR 5.–13. Saeimas sēžu stenogrammu korpuss

1993–2022, 20 milj. vārdlietojumu (24 milj. tekstvienību)
Izstrādātāji: LU MII, RSU

Senie

Latviešu valodas seno tekstu korpuss

1507–1800, 2 milj. vārdlietojumu (2,7 milj. tekstvienību)
Izstrādātāji: LU LaVI, LU MII, LU HZF

Subtitri

Latvijas sabiedrisko mediju subtitru korpuss

2015–2020, 1200 stundu (10,8 milj. tekstvienību)
Izstrādātāji: LU MII

Tīmeklis2007

Latviešu valodas tīmekļa korpuss

1991–2005, 99 milj. vārdlietojumu (123 milj. tekstvienību)
Izstrādātāji: LU MII

Tīmeklis2020

Latviešu valodas tīmekļa korpuss

2013–2022, 403,6 milj. vārdlietojumu (492,6 milj. tekstvienību)
Izstrādātāji: LU MII

UDLV-LVTB

Latviešu valodas universālo atkarību korpuss

1991–2023, 19 367 teikumi (328 000 tekstvienību) (v2.15)
Izstrādātāji: LU MII

Vikipēdija

Vikipēdijas korpuss

2003–2022, 17,9 milj. vārdlietojumu (27,7 milj. tekstvienību)
Izstrādātāji: LU MII

VVPP

Valsts valodas prasmes pārbaudes darbu korpuss

2016–2017, 150 000 tekstvienību
Izstrādātāji: LU MII

Ziņas

Latvijas ziņu portālu raksti

2000–2022, 357,2 milj. vārdlietojumu (513,5 milj. tekstvienību)
Izstrādātāji: LU MII

ĪsprozaS

Sieviešu īsproza

1893–2002, 925 000 vārdlietojumu (1,2 milj. tekstvienību)
Izstrādātāji: LU LFMI
B. Saulīte, R. Darģis, N. Grūzītis, I. Auziņa, K. Levāne-Petrova, L. Pretkalniņa, L. Rituma, P. Paikens, A. Znotiņš, L. Strankale, K. Pokratniece, I. Poikāns, G. Bārzdiņš, I. Skadiņa, A. Baklāne, V. Saulespurēns, J. Ziediņš.
Latvian National Corpora Collection – Korpuss.lv
Proceedings of the 13th Language Resources and Evaluation Conference (LREC), 2022, pp. 5123–5129
PDF   BibTeX